准确地检测出文本抑郁症的模型是解决流行后心理健康危机的重要工具。基于BERT的分类器的有希望的性能和现成的可用性使它们成为此任务的绝佳候选人。但是,已知这些模型会遭受性能不一致和概括不佳的损失。在本文中,我们介绍了甲板(抑郁清单),抑郁症特异性模型的行为测试,可更好地解释性并提高抑郁域中BERT分类器的普遍性。我们创建了23次测试,以评估BERT,Roberta和Albert Depine Classifiers在三个数据集中,两个基于Twitter和一个基于临床访谈的分类器。我们的评估表明,这些模型:1)对于文本中的某些性别敏感变化是可靠的; 2)依靠使用第一人称代词的使用的重要抑郁语言标记; 3)无法检测到其他一些抑郁症状,例如自杀念头。我们还证明,甲板测试可用于将特定于症状的信息纳入训练数据中,并始终提高所有三种BERT模型的概括性,而分布外F1得分的提高最高可达53.93%。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
我们提出了一种解释黑盒警报系统,以预测在油气井进行钻探过程中预测事故和异常。解释方法旨在向钻探工程师解释事故预测模型的局部行为。解释模型使用Shapley添加性解释分析特征分析,这是通过钻探事故预测阶段中使用的遥测日志的功能袋表示获得的。验证表明,解释模型在70%的召回率时具有15%的精度,并克服了随机基线和多头注意神经网络的度量值。这些结果证明,与最先进的方法相比,开发的解释模型与钻探工程师的解释更好。解释性和功能袋模型的联合性能使钻井工程师能够在特定时刻了解系统决策背后的逻辑,注意突出显示的遥测区域,并相应地提高事故预测警报的信任水平。
translated by 谷歌翻译
遗憾是最近在收入最大化拍卖的自动设计方面的突破。它将深度学习的表现力与基于遗憾的方法相结合,以放松激励兼容的限制(参与者如今受益于竞标)。我们提出了对遗憾的两种独立修改,即基于注意力机制的神经结构,称为“遗憾形式”,以及对超参数敏感的可解释损失函数。我们在一项广泛的实验研究中研究了两者的修改,其中包括具有恒定和不同的项目和参与者的设置,新颖的验证程序以及设定的概括。我们发现,Realformer在收入中始终优于现有体系结构,与现有架构不同,当输入大小是可变时,适用于现有体系结构。关于我们的损失修改,我们通过改变单个可解释的超参数来确认其在控制收入归还权衡权衡方面的有效性。
translated by 谷歌翻译
本文讨论了具有丰富记录数据的域中的政策选择问题,但互动预算有限。解决此问题将在行业,机器人和推荐领域中安全评估和部署离线强化学习政策等。已经提出了几种违规评估(OPE)技术以评估仅使用记录数据的策略的值。然而,OPE的评估与真实环境中的完整在线评估之间仍然存在巨大差距。然而,在实践中通常不可能进行大量的在线互动。为了克服这个问题,我们介绍了\ emph {主动脱机策略选择} - 一种新的顺序决策方法,将记录数据与在线交互相结合,以识别最佳策略。这种方法使用ope估计来热启动在线评估。然后,为了利用有限的环境相互作用,我们决定基于具有表示政策相似性的内核函数的贝叶斯优化方法来评估哪个策略。我们使用大量候选政策的多个基准,以表明所提出的方法提高了最先进的OPE估计和纯在线策略评估。
translated by 谷歌翻译